57 research outputs found
Distributed Bayesian Matrix Factorization with Limited Communication
Bayesian matrix factorization (BMF) is a powerful tool for producing low-rank
representations of matrices and for predicting missing values and providing
confidence intervals. Scaling up the posterior inference for massive-scale
matrices is challenging and requires distributing both data and computation
over many workers, making communication the main computational bottleneck.
Embarrassingly parallel inference would remove the communication needed, by
using completely independent computations on different data subsets, but it
suffers from the inherent unidentifiability of BMF solutions. We introduce a
hierarchical decomposition of the joint posterior distribution, which couples
the subset inferences, allowing for embarrassingly parallel computations in a
sequence of at most three stages. Using an efficient approximate
implementation, we show improvements empirically on both real and simulated
data. Our distributed approach is able to achieve a speed-up of almost an order
of magnitude over the full posterior, with a negligible effect on predictive
accuracy. Our method outperforms state-of-the-art embarrassingly parallel MCMC
methods in accuracy, and achieves results competitive to other available
distributed and parallel implementations of BMF.Comment: 28 pages, 8 figures. The paper is published in Machine Learning
journal. An implementation of the method is is available in SMURFF software
on github (bmfpp branch): https://github.com/ExaScience/smurf
Bayesläiset menetelmät diskriminatiivisessa ja generatiivisessa luokittelussa
Only abstract. Paper copies of master’s theses are listed in the Helka database (http://www.helsinki.fi/helka). Electronic copies of master’s theses are either available as open access or only on thesis terminals in the Helsinki University Library.Vain tiivistelmä. Sidottujen gradujen saatavuuden voit tarkistaa Helka-tietokannasta (http://www.helsinki.fi/helka). Digitaaliset gradut voivat olla luettavissa avoimesti verkossa tai rajoitetusti kirjaston opinnäytekioskeilla.Endast sammandrag. Inbundna avhandlingar kan sökas i Helka-databasen (http://www.helsinki.fi/helka). Elektroniska kopior av avhandlingar finns antingen öppet på nätet eller endast tillgängliga i bibliotekets avhandlingsterminaler.Tilastollisessa luokittelussa kiinnostuksen kohteena oleva havaintoyksikkö sijoitetaan tätä kuvaavien havaittujen ominaisuuksien perusteella johonkin luokkaan. Esim. sähköpostiohjelmien roskapostisuodattimet hyödyntävät luokittelumenetelmiä luokitellessaan viestit näiden sisällön perusteella joko roskapostiksi tai ”oikeaksi” sähköpostiviestiksi. Tässä työssä taas tarkastellaan lääketieteellistä sovellusta, jossa potilaan terveydentilaa koskevien tietojen perusteella pyritään päättelemään onko potilaalla jokin määrätty sairaus vai ei. Luokitelussa käytettävä luokittelumalli estimoidaan luokiteltavan havaintoyksikön kanssa samasta perusjoukosta olevasta, valmiiksi luokitellusta aineistosta, jota kutsutaan opetusaineistoksi. Luokittelumalleja voidaan muodostaa monin eri tavoin. Tässä työssä käsiteltävät mallit perustuvat havaintoyksikön ominaisuuksille ehdollistetun, luokkamuuttujan ehdollisen jakauman mallintamiseen. Luokittelija sijoittaa tällöin havaintoyksikön luokkaan, jonka ehdollinen todennäköisyys on suurin. Ehdollisiin todennäköisyyksiin perustuvat luokittelijat voidaan muodostaa joko diskriminatiivisesti tai generatiivisesti. Edellisessä estimoidaan suoraan luokkamuuttujan ehdollista jakaumaa vastaava malli kun taas jälkimmäisessä estimoidaan ensin havaintoyksikön ominaisuuksia kuvaavien muuttujien sekä luokkamuuttujan yhteisjakaumaa vastaava malli, josta etsitty ehdollinen jakauma saadaan käyttämällä Bayesin kaavaa. Tutkimuksessa tarkastellaan binääriseen luokitteluun soveltuvaa, diskriminatiivisesti muodostettavaa logistista regressiota sekä naiivia Bayes-luokittelijaa, joka tiettyjen oletusten vallitessa on tämän generatiivinen vastine. Modernissa tilastotieteessä on viime vuosina huomattavasti lisääntynyt ns. bayesläisten menetelmien käyttö. Ominaista näille menetelmille on kaiken tilastollisen epävarmuuden ilmaiseminen todennäköisyysjakaumien avulla. Tässä työssä tutkitaan kokeellisesti bayesläisen lähestymistavan vaikutusta naiivin Bayes-luokittelijan ja logistisen regressiomallin luokitustarkkuuteen. Tämän lisäksi tarkastellan diskriminatiivisten ja generatiivisten luokittelumallien välisiä eroja ja arvioidaan opetusaineiston koon vaikutusta näiden luokituskykyyn. Luokittelumallien vertailussa käytetään Tampereen yliopistollisesta sairaalasta peräisin olevaa aineistoa, joka koostuu sepelvaltimovarjoainekuvattujen potilaiden terveydentilaa koskevista tiedoista. Luokitustarkkuudeltaan generatiivinen luokittelija oli diskriminatiivista luokittelijaa parempi, joskin erot pienenivät mitä suuremmaksi opetusaineiston kokoa kasvatettiin. Tämä on sopusoinnussa kirjallisuudessa esitetyn tuloksen kanssa, jonka mukaan generatiiviset luokittelijat ovat diskriminatiivisia luokittelijoita tarkempia juuri pienillä opetusaineistoilla kun taas jälkimmäiset ovat tarkempia suurilla opetusaineistoilla. Bayesläisen lähestymistavan soveltaminen paransi jossain määrin kummankin mallin luokituskykyä etenkin pienimmillä opetusaineistoilla
Federated Stochastic Gradient Langevin Dynamics
Publisher Copyright: © 2021 37th Conference on Uncertainty in Artificial Intelligence, UAI 2021. All Rights Reserved.Stochastic gradient MCMC methods, such as stochastic gradient Langevin dynamics (SGLD), employ fast but noisy gradient estimates to enable large-scale posterior sampling. Although we can easily extend SGLD to distributed settings, it suffers from two issues when applied to federated non-IID data. First, the variance of these estimates increases significantly. Second, delaying communication causes the Markov chains to diverge from the true posterior even for very simple models. To alleviate both these problems, we propose conducive gradients, a simple mechanism that combines local likelihood approximations to correct gradient updates. Notably, conducive gradients are easy to compute, and since we only calculate the approximations once, they incur negligible overhead. We apply conducive gradients to distributed stochastic gradient Langevin dynamics (DSGLD) and call the resulting method federated stochastic gradient Langevin dynamics (FSGLD). We demonstrate that our approach can handle delayed communication rounds, converging to the target posterior in cases where DSGLD fails. We also show that FSGLD outperforms DSGLD for non-IID federated data with experiments on metric learning and neural networks.Peer reviewe
Modelling-based experiment retrieval: A case study with gene expression clustering
Motivation: Public and private repositories of experimental data are growing
to sizes that require dedicated methods for finding relevant data. To improve
on the state of the art of keyword searches from annotations, methods for
content-based retrieval have been proposed. In the context of gene expression
experiments, most methods retrieve gene expression profiles, requiring each
experiment to be expressed as a single profile, typically of case vs. control.
A more general, recently suggested alternative is to retrieve experiments whose
models are good for modelling the query dataset. However, for very noisy and
high-dimensional query data, this retrieval criterion turns out to be very
noisy as well.
Results: We propose doing retrieval using a denoised model of the query
dataset, instead of the original noisy dataset itself. To this end, we
introduce a general probabilistic framework, where each experiment is modelled
separately and the retrieval is done by finding related models. For retrieval
of gene expression experiments, we use a probabilistic model called product
partition model, which induces a clustering of genes that show similar
expression patterns across a number of samples. The suggested metric for
retrieval using clusterings is the normalized information distance. Empirical
results finally suggest that inference for the full probabilistic model can be
approximated with good performance using computationally faster heuristic
clustering approaches (e.g. -means). The method is highly scalable and
straightforward to apply to construct a general-purpose gene expression
experiment retrieval method.
Availability: The method can be implemented using standard clustering
algorithms and normalized information distance, available in many statistical
software packages.Comment: Updated figures. The final version of this article will appear in
Bioinformatics (https://bioinformatics.oxfordjournals.org/
- …